Введение в глубокое обучение с подкреплением (DRL)
Глубокое обучение с подкреплением (DRL) объединяет высокоразмерные возможности представления глубоких нейронных сетей с оптимальной рамочной основой обучения с подкреплением. В отличие от обучения с учителем или без учителя, DRL агенты учатся через пробу и ошибку во взаимодействии с динамической средой, принимая последовательные решения без немедленных, явных меток. Это интеграция позволяет агентам напрямую обрабатывать сложные, необработанные данные (например, пиксельные данные).
1. Парадигма обучения DRL
Агент обучения с подкреплением работает в непрерывном цикле: наблюдая за средой Состояние ($S_t$), выполняя действие Действие ($A_t$), и получая потенциально разреженный или задержанный скалярный вознаграждение ($R_{t+1}$). Основная проблема — это задача распределения кредита: определение, какие предыдущие действия ответственны за будущий сигнал вознаграждения.
2. Цель оптимизации
Конечная цель — найти оптимальную стратегию, или политику ($\pi^*$), которая представляет собой отображение из состояний в действия, максимизирующее ожидаемый суммарный дисконтированный доход ($G_t$). Дисконт-фактор ($\gamma \in [0, 1]$) имеет математическое значение, определяя, насколько мы ценим немедленные награды по сравнению с наградами, ожидаемыми в отдалённом будущем.
$$G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$$1. $\gamma = 0$
2. $\gamma \approx 1$
Describe the agent's behavioral preference in each case regarding the timeline of rewards.
If $\gamma = 0$, the agent is myopic (shortsighted), focusing only on the immediate reward $R_{t+1}$. If $\gamma \approx 1$, the agent is far-sighted, equally weighting immediate and distant future rewards, leading to planning over a very long horizon.